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Abstract 


The method for performing multi-stage transforms by means of Butterfly operations calculates stages with 
and without time division multiplexing. Results from previous processing stages are permutated using a delay 
circuit in a feedback loop, and a further Butterfly operation is performed. The arithmetic unit for the partial 
product calculation is shared, and the partial calculation of the stage results are alternately performed. 
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Beschreibung 

Die Erfindung betrifft ein Verfahren und eine Schal- 
tungsanordnung zur Durchfuhrung mehrstufiger But- 
terfly-Operationen, wie sie z. B. bei der Transforma- 5 
tionscodierung und -decodierung, insbesondere fur die 
Diskrete-Cosinus-Transformation (DCT) verwendet 
werden. 

Technisches Gebiet 10 

Verschiedene Blocktransformationsalgorithmen las- 
sen sich besonders effektiv berechnen, wenn die Berech- 
nung mehrstufig ausgefuhrt wird. Der SignalfluBgraph 
wird daffir in kleinere, moglichst ahnliche Teilgraphen 15 
mit je zwei Ein- und Ausgangen zerlegt, die meist die 
Form eines Schmetterlings haben und daher Butterfly 
genannt werden. Oblich sind dabei Butterflies mit je- 
weils zwei Ein- und Ausgangen. Als interne Rechenope- 
rationen fiir die Butterflies werden ublicherweise Addi- 20 
tionen, Subtraktionen und die vergleichsweise aufwen- 
digen Multiplikationen bendtigt Im SignalfluBgraphen 
werden dabei in jeder Stufe mehrere Butterflies parallel 
bendtigt Beis piele dafiir sind die Fast-Fourier-Transfor- 
mation (FFT), die ausftthrlich in "Digital Signal Proces- 25 
sing 1 ' von A. V. Oppenheim und R. W. Schafer, Engelwo- 
od Cliffs: Prentice Hall, 1975, beschrieben ist, und die 
Diskrete-Cosinus-Transformation (DCT) und die inver- 
se DCT (IDCT). Weitere Ausfiihrungen finden sich auch 
in: 30 
[N. Ah med, T. Natarajan & K.R. Rao: "Discrete Cosine 
Transform" IEEE transactions on Computer, Vol C-23, 
S. 90-93, Jan. 1974} 

[B. G. Lee: "A New Algorithm to Compute the Discrete 
Cosine Transform" IEEE transactions on Acoustics, 35 
Speed and Signal Frocessing, Vol 32, No. 6, S. 
1243- 1245, Dec. 1984J 

[A. Artieri, F. Jutand: "Proc6de de determination de 
transformed en cosinus discrete", Brevet No. 89 02347, 
Feb. 1989], [G Loeffler, A. Lightenberg, G.S. Moschytz: 40 
"Practical Fast 1-D DCT Algorithmus with 11 Multipli- 
cations", IEEE, S. 988-991, 1989], 
[M. Vetterli, H. Nussbaumer: "Simple FFT and DCT 
Algorithms with Reduced Number of Operations" Si- 
gnal Processing, Vol.6, S. 267— 278, Aug. 1984]. 45 

DCT und IDCT werden haufig fur die Datenkompres- 
sion von Videosignalen eingesetzt Die Verfahren sind in 
den Standards JPEG, MPEG, "Information Technology 
— Coding of Moving Pictures and Associated Audio for 
Digital Storage Media up to about 1.5 Mbit/s", Draft 50 
International Standard ISO/IEC DIS 11 172, 1992, defi- 
niert. Dabei wird eine zweidimensionale Form der DCT 
eingesetzt, die in zwei eindimensionale DCT-Transfor- 
mationen mit einer Lange von 8 separierbar ist 

Das Problem ist auch in "Video Codec for Audiovisual 55 
Services at p x 64 kbit/s, Recommendation H. 261", The 
International Teleg raph and Telephone Consultative 
Committee (CCITT), 1990 naher definiert. 

Zur Implementation von SignalfluBgraphen fiir 
Blocktransformationsalgorithmen stehen im Prinzip 60 
mehrere Moglichkeiten zur Verfugung. Der gesamte Si- 
gnalfluBgraph kann direkt in Hardware QberfOhrt wer- 
den, so daB jede Multiplikation einen festverdrahteten 
Multiplizierer, jede Addition einen Addierer und jede 
Subtraktion einen Subtrahierer erfordert Diese Vorge- es 
hensweise fQhrt zwar zu extrem hohen Durchsatzraten, 
ist jedoch mit vergleichsweise hohem Aufwand verbun- 
den. Das andere Extrem iiegt darin, alle Operationen 
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nacheinander in einer programmierbaren Einheit im 
einfachen Zeitmultiplex durchzuffihren. Ein Beispiel ist 
auf Seite 265 in dem Datenhandbuch von LSI-Logic 
ausgefuhrt (Implementing Fast Fourier Transform Sy- 
stems with the L64280/81 Chipset Digital Signal Pro- 
cessing (DSP) Databook. Milpitas: LSI Logic, June 1990, 
S. 258—268). Dieses Vorgehen ist zwar sehr flexibel und 
liefert hohe Auslastungsraten, ffihrt jedoch zu niedrigen 
Durchsatzraten. 

Haufig wird hierbei wird daher die Mdglichkeit ge- 
nutzt, die Anzahl der realisierten Butterflies iiber einen 
Zeit-Multiplexbetrieb der gewfinschten Durchsatzrate 
anzupassea Dabei ist in der Regel jeder Verarbeitungs- 
stufe eine Butterfly zugeordnet (LSI-Logic, Databook, 
Seite 261, Fig. 1 und 2). Die Zuordnung kann beispiels- 
weise fiber einen Projektionsalgorithmus erfolgen. Fur 
den Betrieb werden zusatzlich zu den eigentlichen But- 
terflies Permutationselemente bendtigt, um die Daten in 
die jeweils vorgegebene, in jeder Stufe unterschiedliche 
zeitliche Reihenfolge zu bringen. 

In den meisten Fallen wird jedoch bei der Konzeption 
von Verarbeitungskomponenten ein einfaches System- 
konzept angestrebt, indem im Mittel mit jedem Takt- 
schritt ein Datum verarbeitet wird. Jeder Taktschritt 
kann dabei ggf. auch aus mehreren Teiltakten bestehen. 
Auch synchron getaktete Zwischenspeicher, die eventu- 
ell zwischen mehreren Verarbeitungseinheiten zur An- 
passung von Datenformaten bendtigt werden, liefern 
pro Taktschritt meist maximal ein Datum, sofern sie 
nicht aufwendig unterteilt sind. Deshalb werden manch- 
mai auch Butterflies im Zeitmultiplex f fir mehrere Stu- 
fen gemeinsam eingesetzt. Um eine optimale Ausla- 
stung der Verarbeitungseinheiten (Prozessoren) und da- 
mit einen moglichst niedrigen Aufwand zu erhalten, 
muB die Anzahl der Prozessoren an die Durchsatzrate 
angepaBt werden. 

Die aufwendige Implementierung von Multiplizierern 
kann dadurch minimiert werden, daB die Transforma- 
tion mit einer moglichst groSen Anzahl von Multiplika- 
tionen mit festem Koeffizienten ausgefuhrt wird. Zum 
Beispiel bei der {Combination von festverdrahteten Ad- 
dier-, Subtrahier- und Schiebe-Operationen liegt der 
Aufwand fflr eine Multiplikation mit festem Koeffizien- 
ten erheblich niedriger, als fur eine Multiplikation mit 
variablem Koeffizienten [K. Hwang: Computer Arith- 
metic, Principles, Architectures and Design. John Wiley 
& Sons, 1979) und (P. Pirsch: VLSI Implemenation Stra- 
tegies, in: P. Pirsch (Hrsgb.): VLSI Implementations for 
Image Communications, Elsevier 1993, S. 67]. 

Die Butterflies arbeiten mit 2 Werten pro Taktschritt 
meist schneller als die Speicher und die Datenzu- und 
-abfuhr, die meist 1 Wert pro Taktschritt benotigen. 
Entsprechende Verhaltnisse ergeben sich auch bei der 
Verarbeitung komplexer Zahlen wie sie beispielsweise 
bei der FFT benotigt werden. Haufig werden alle n Ebe- 
nen zeitlich nacheinander abgearbeitet Bei optimaler 
Datenzufuhrung fiber angepaBte Zwischenspeicher 
sinkt dann aber die bei n Stufen erreichte Durchsatzrate 
auf das 2/nfache des Wertes ab. Ffir die Erzielung einer 
optimale Durchsatzrate mit minimalem Aufwand ist es 
daher notwendig, die Anzahl der realisierten Butterflies 
so zu w&hlen, daB der Wert n/2 der Anzahl der zu verar- 
beitenden Werte je Taktschritt entspricht Bei ungera- 
der Anzahl n ergibt sich jedoch das Problem, daB n/2 
nicht ganzzahlig ist. Entsprechendes gilt fur vergleich- 
bare Aufgaben, bei denen die optimale Anzahl der But- 
terflies nicht ganzzahlig ist. In all diesen Fallen ist bis- 
lang keine optimale Implementierung moglich. 
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Dies trifft beispielsweise auf dreistufig implementier- 
te SignalfluBgraphen filr die 8-Punkte-DCT zu. Wird 
dabei beispielsweise mit nur einem Butterfly-Prozessor 
gearbeitet, so wird zwar der Verarbeitungseinheit zeit- 
lich vollstandig genutzt, die Durchsatzrate von Speicher 
und Gesamtsystem ist jedoch auf 2/3 des Maximalwer- 
tes gesunken. Werden dagegen zwei, bzw* drei Butter- 
fly-Prozessoren eingesetzt, um eine Durchsatzrate von 
einem Wert/Takt zu erreichen, so sind dagegen die Pro- 
zessoren nicht vollsttndig ausgelastet 

Aufgabe der Erfindung 

Auf gabe der Erfindung war es, ein Verfahren und eine 
Schaltungsanordnung zur Durchfuhrung mehrstufiger 
Butterfly-Operationen anzugeben. Der Implementie- 
rungsbedarf, insbesondere die Anzahl an Multiplizie- 
rern sollte hierbei minimal seia 

Erfindung 

Die Aufgabe wird durch das erfindungsgemifle Ver- 
fahren nach Anspruch 1 gelSst Mehrere Stufen einer 
Transformation werden im einfachen Zeitmultiplex in 
einer gemeinsamen Schaltung zur Durchfuhrung von 
Butterfly-Operationen ausgefiihrt In der erfindungsge- 
m£Ben Schaltungsanordnung nach Anspruch 3 wird ein 
Rechenwerk zur Durchfuhrung von Butterfly-Operatio- 
nen fur die Stufen gemeinsam genutzt Die Daten wer- 
den nach der Berechnung einer Stufe permutiert und 
aber eine Verzogerungsleitung in das Rechenwerk zu- 
ruckgekoppelt Im Zeitmultiplex konnen somit Berech- 
nung fur die Stufen abwechselnd im gleichen Rechen- 
werk ausgefiihrt werden. 

Die Butterflies in den SignalfluBgraphen ftir die 
BlocktransformationsaJgorithmen mtissen hierbei so ge- 
schickt gewahlt sein, daB nur in maximal n-1 Stufen die 
vergleichsweise aufwendigen programmierbaren Multi- 
plikationen implementiert werden mtissen. 

Zur Durchfuhrung von Butterfly-Operationen, z. B. 
fur FFT oder DCT, wird an den Ausgang der Schal- 
tungsanordnung zur Berechnung- mehrerer Stufen im 
Zeitmultiplex ein Rechenwerk zur Durchfuhrung von 
Butterfly-Operationen und Permutationen geschaltet, 
das ohne stufenweisen Zeitmultiplex arbeitet. Fur die 
Berechnung der inversen Transformationen wird ein 
ohne stufenweisen Zeitmultiplex arbeitendes Rechen- 
werk zur Durchfuhrung von Butterfly-Operation und 
Permutationen der durch Zeitmultiplex gekennzeichne- 
ten Schaltung vorgeschaltet 

Bei einer ungeraden Anzahl n laBt sich so mindestens 
eine der Butterfly- Verarbeitungseinheiten mit festem 
bzw. umschaltbaren Multiplikationskoeffizienten reali- 
sieren. Diese Verarbeitungseinheit ist zumeist am Ein- 
bzw. Ausgang der Schaltung angeordnet Es ist daher 
mogiich, daB n-1 Butterfly-Stufen im zweifachen Zeit- 
multiplex betrieben werden und die verbleibende Stufe 
separat ohne Zeitmultiplex implementiert wird. Da- 
durch wird bei den aufwendigen Stufen ein Ausnut- 
zungsgrad von 1 erreicht, wihrend lediglich bei der er- 
sten, bzw. letzten Stufe der Ausnutzungsgrad bei 0,5 
Iiegt Da die separate Stufe im allgemeinen nur einen 
Bruchteil des Gesamtaufwand ausmacht, wird so Ge- 
samtausnutzungsgrad von fast 1 erreicht Entsprechen- 
des laBt sich haufig auch bei anderen Durchsatzraten 
erreichen. 



Zeichnungen 

Die Erfindung wird anhand der Figuren naher erla*u- 
tert Es zeigen: 
5 Fig. 1 Beispiel eines geeigneten DCT-DatenfluBdia- 
gramms mit drei Stufen. 

Fig. 2 Gemischter Multiplex-Normal-Betrieb mit op- 
timaler Ausnutzung der Butterflies. 
Fig. 3 Gemischter Multiplex-Normal-Betrieb ftir 
io IDCT (mit IDCT- Butterflies). 
Fig. 4 Permutationsschaltung. 

Anwendungsbeispiele 

is Die Erfindung findet z. B. Anwendung bei den ver- 
gleichsweise regular aufgebauten Transformationen 
FFT und IFFT, beschrieben in "Digital Signal Proces- 
sing" (Seite 293, Fig. 6.6, bzw. Seite 304, Fig. 6.1 7), sowie 
fur einige reiativ irregular aufgebauter DCT- und der 
20 IDCT-Implementierungen, wie etwa die auf dem Algo- 
rithmus von Lee basierenden SignalfluBgraphen ftir die 
8-Punkte-DCT (N. Demassieux, F. Jutand: "Orthogonal 
Transforms" in P. Pirsch, "Implementations for Image 
Communications", Elsevier, 1993, S. 217—250, insb. S. 
25 223, Fig. 3). 

Bei der FFT wird mit komplexen Zahlen gerechnet 
Die bendtigten Operationen lassen sich aber auch auf 
reelle Additionen, Subtraktionen und Multiplikationen 
zurtickftihren. Bei den Formen der FFT wird neben Ad- 
30 dition und Subtraktion in der ersten bzw. letzten Stufe 
lediglich die Multiplikation mit dem Wert 1 benotigt, in 
der zweiten, bzw. vorletzten Stufe die Multiplikation mit 
der imaginaren Zahl i. Beide lassen sich leicht ohne eine 
Hardware-Multiplizierer realisieren. In der dritten, bzw. 
35 drittletzten Stufe wird zusatzlich die Multiplikation mit 
der Quadratwurzel von 2 bendtigt, die dann mit festver- 
drahteten Multiplizierern realisieren laBt In diesem Fal- 
le kann sich das Herausnehmen von bis zu drei Stufen 
lohnen. 

40 Auch bei der ftir Bildcodierungsverfahren haufig be- 
ndtigten DCT der Lange 8 lassen sich Butterflies so 
finden, daB nur in den ersten beiden Butterfly-Stufen Bl 
und B2 die sehr aufwendigen, programmierbaren Multi- 
plizierer benotigt werden (Fig. I). In der dritten Butter- 
45 fly-Stufe B3 wird statt dessen lediglich ein sehr einfa- 
cher, festverdrahteter Multiplizierer benotigt, der mit 
der Quadratwurzel von 2 (Faktor 2»P4) oder mit der 
Half te der Quadratwurzel von 2 (Faktor P4) multiplizie- 
ren muB. Die Umschaltung zwischen diesen beiden Mul- 
50 tiplikatoren ist daher sehr einfach mogiich. Beispielswei- 
se erfordert sie bei Verwendung des ublichen Dualzah- 
lensystems lediglich ein bitweises Verschieben der Mul- 
tiplikanden. Zusatzlich ist ein einfaches Korrektur-Netz 
K und eine Skalierung Sk notwendig. Das Korrektur- 
55 Netz enthalt nur einfache Additionen und kann daher 
. vergleichsweise einfach aufgebaut werden. Die Skalie- 
rung fur den Faktor P4/2 entspricht einem Viertel der 
Quadratwurzel von 2. Wird eine zweidimensionale DCT 
(2D-DCT) wie ftir Bildcodierungsaufgaben berechnet, 
eo so wird diese Skalierung zweimal benotigt Aufgrund 
der prinzipiellen Linearitat der Anordnung lassen sich 
daher die beiden Skalierungsfaktoren zum Faktor 1/8 
zusammenfassen. Dieser Faktor entspricht einer Zwei- 
erpotenz und kann daher in Verbindung mit den tibli- 
65 cherweise eingesetzten Zahlensystemen mit einer fest- 
verdrahteten Schiebe-Operation ohne zusatzliche 
Hardware implementiert werden. 
Insgesamt wird also neben dem Aufwand fur die Im- 
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plementierung der Datenzu- und -abfiihrung nur Hard- 
ware fur die Implementierung der U 2. und 3. Butterfly- 
Stufen mit Permutation und dem Korrektur-Netz bend- 
tigt 

Es ist daher mdglich, die Verarbeitung erfindungsge- 5 
matt so aufzuteilen, daB die beiden ersten aufwendigen 
Butterfly-Stufen B1/B2 im Zeitmultiplex arbeiten, die 
letzte, einfach aufgebaute Butterfly-Stufe B3 jedoch di- 
rekt mit dem Verarbeitungstakt betrieben wird (Fig. 2). 
Die Stufe B3 muB dabei auch die fur -das notwendige 10 
Korrektur-Netz beinhalten. Fur die Einfuhrung der 
Zeitmultiplex- Verarbeitung sind lediglich zusatzliche 
synchrone Verzdgerungen D (Pipeline-Stuf en) und Mul- 
tiplexer M erforderlich, urn die Serien/Parallel- Wand- 
lung und die Parallel/Serien-Wandlung durchzuffihren. 15 
Wird die Stufe 3 im Zeitmultiplex betrieben, so wird die 
Parallel/serien-Wandlung erst nach dieser Stufe durch- 
gef0hrt(Fig.3). 

Bei einem derartigen Multiplex-Betrieb wird zumin- 
dest der aufwendig aufgebaute Teil der Verarbeitungs- 20 
einheit vollstandig genutzt, ohne daB sich die maximal 
mogliche Durchsatzrate reduziert wird Diese Eigen- 
schaft ermoglicht effiziente Hardware-Realisierungen. 

Mit angepaBten Butterflies und Umkehrung der Ver- 
arbeitungsmodi laBt sich dieses Grundprinzip auch auf 25 
die IDCT- Verarbeitung anwenden (Fig. 4). In diesem 
Fall braucht der fur die Butterfly Bl eingesetzte Multi- 
plizierer nur mit festverdrahteten Koeffizienten ohne 
Zeitmultiplex betrieben werden, wahrend die aufwendi- 
gen Einheiten fiir die Butterflies B2/B3 im Zeitmultiplex 30 
betrieben werden. Auch hierbei sind zusatzlich wieder 
lediglich wenige Verzogerungen D und Multiplexer fur 
den Zeitmultiplex-Betrieb erforderlich. 

Zwischen den Stufen mussen die Daten ggf. permu- 
tiert werden, damit die 35 
Ausgangsdaten fur die nSchste Stufe in der richtigen 
Reihenfolge am Eingang der Butterfly-Stufe an liegen. 
Die Permutation kann z. B. mit der in Fig. 5 gezeigten 
Schaltungsanordnung durchgefuhrt werden. Die Anord- 
nung der Speicher und Multiplexer ist hier jedoch ab- 40 
hangig von dem Transformationsaigorithmus und muB 
der jeweiligen Aufgabe entsprechend angepaBt werden. 



tionen zuriickgekoppelt und einer weiteren Butter- 
fly-Operation unterzogen werden, wobei das Re- 
chenwerk fur die Teilberechnungen der Stufen ge- 
meinsam genutzt wird und die Teilberechnungen 
der Stufen alternierend ausgef uhrt werden. 

3. Schaltungsanordnung zur seriellen Durchfuh- 
rung von mehrstufigen Transformationen im einfa- 
chen Zeitmultiplex, dadurch gekennzeichnet, daB 
ein Rechenwerk zur Berechnung einer Butterfly 
ausgepragt ist, die Ausgange des Rechenwerks 
uber eine Schaltung zur Permutation, Verz&ge- 
rungselemente und Multiplexer an den Eingang des 
Rechenwerks ruckgekoppelt sind, wobei der Si- 
gnaleingang an den einen Multiplexer und fiber ein 
Verzogerungsgiied an den anderen Multiplexer ge- 
schaltet ist 

4. Schaltungsanordnung nach Anspruch 3 zur Er- 
zeugung eines seriellen Ausgangsdatenstroms, da- 
durch gekennzeichnet, daB die Ausgange des Re- 
chenwerks zum einen Ober ein weiteres Verzoge- 
rungselement, zum anderen direkt mit einem drit- 
ten Multiplexer verbunden sind 

5. Schaltungsanordnung nach Anspruch 4 zur Be- 
rechnung einer DCT, dadurch gekennzeichnet, daB 
der Ausgang des dritten Multiplexers mit einem 
Rechenwerk zur Durchfuhrung einer Butterfly- 
Operation ohne Zeitmultiplex verbunden ist 

6. Schaltungsanordnung zur Berechnung einer 
IDCT, dadurch gekennzeichnet, daB der Schal- 
tungsanordnung nach Anspruch 3 ein Rechenwerk 
zur Durchfuhrung einer Butterfly-Operation ohne 
Zeitmultiplex vorgeschaltet ist. 



Hierzu 2 Seite(n) Zeichnungen 



Bezugszeichenliste 

D Verzogerungsgiied 
M Multiplexer 
Bl erste Butterfly-Stufe 
B2 zweite Butterfly-Stufe 
B3 dritte Butterfly-Stufe 
PS Permutationsschaltung 
PI — P7 Wichtungsfaktoren 
K Korrekturnetz 
Sk Skalierung 
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Patentanspriiche 

1, Verfahren zur Durchfuhrung von mehrstufigen 
Transformationen mittels Butterfly-Operationen, 
dadurch gekennzeichnet, daB Stufen im Zeitmulti- 60 
plex und die anderen Stufen ohne Zeitmultiplex 
berechnet werden. 

2. Verfahren nach Anspruch 1 zur Durchfuhrung 
von Berechnungen mehrerer Stufen im Zeitmulti- 
plex, dadurch gekennzeichnet, daB Ergebnisse nach 65 
der Berechnung einer vorhergehenden Stufe per- 
mutiert, fiber eine Verzogerungsleitung in ein Re- 
chenwerk zur Durchffihrung von Butterfly-Opera- 
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